生成式模組不斷推陳出新,從最一開始的GAN到之後演進的新模組,我們逐漸了解到這個可能取代人類大部分勞力工作的力量是什麼面貌。
上一篇我們講到了,DDPM擴散式降噪模型是如何重複去噪達到漂亮的圖片,那我們要如何精確地產生出我們要的圖片呢?,假設你想製作一個使用文本生成圖片的模型。 您的目的是給出一段文本,然後給出一張隨機圖片(例如噪聲圖片)。 模型就可以幫助您生成與文字描述相匹配的逼真圖片,例如:
文字描述就像是一个指引(guidance),幫助模型生成更符合語義信息的圖片。 然而,語義學習畢竟是複雜的。 我們能否退一步,讓模型能夠生成逼真的圖像?
例如,如果你給模型餵一堆賽博朋克風格的圖片,讓模型學習賽博朋克風格的分佈信息,然後給模型餵隨機噪聲,就可以讓模型產生一張逼真的賽博朋克照片。 或者給模型餵一堆人臉圖片,讓模型生成一張真實的人臉。 同樣,我們也可以選擇給訓練好的模型餵一張帶有一些信息的圖片,比如一張混有噪聲的人臉,讓模型幫我們去除噪聲。
DDPM的訓練過程分為兩個步驟
一步步加噪的過程,就被稱為Diffusion Process;一步步去噪的過程,就被稱為Denoise Process。我們来詳細看這兩個步驟
在訓練模型時,逐步地將原圖加入雜訊。具體上來說,使用一個高斯分布一次又一次地在原圖上打上很小的雜訊,然後讓網路來學習如何reverse這個雜訊。
但所有 ML 訓練的背後,通常都有一套數學依據。 DDPM 的訓練方法確實就像 VAE 一樣簡單,但有心想深究 diffusion model ,還是需要理解為什麼直接對網路預測的 noise計算 L2 loss可以是有效的 loss function。
這篇文章關於 diffusion model的理論介紹就到這邊了。先聲明,上面所牽扯到的數學推導真的太過於複雜,因此內容比較偏向解釋為什麼這樣可以訓練,而不是真正的細節推導。如果對於真正的推導有興趣,務必參考原論文
怕寫錯得不夠精確。如果有讀者看到描述不當或是不正確之處,歡迎協助指證,感謝!
High-Resolution Image Synthesis with Latent Diffusion Models
https://zhuanlan.zhihu.com/p/637815071